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摘要 : 【 目的 】 科研 合作 关系 是 一 种 重要 的 社会 网 络 。 为 了 促进 科研 合作 ,提高 科研 生产 率 ， 对 金融 领域 的 科研 
合作 推荐 模型 进行 研究 。[ 方法 】 建 立 金融 领域 个 人 、 机 构 和 区 域 三 个 层面 的 科研 合作 网 络 , 提出 一 种 新 的 融合 
基于 邻居 节点 和 基于 路 径 的 网 络 特征 的 科研 合作 推荐 模型 ， 并 从 个 人 、 机 构 和 区 域 三 个 层面 进行 实证 检验 。[ 结 
R 】 通 过 对 2000 年 到 2014 年 刊载 的 68 905 篇 金融 领域 的 文章 进行 分 析 并 构建 科研 合作 网 络 , 在 个 人 、 机 构 和 
区 域 三 个 层面 上 ， 基 于 特征 融合 的 链接 预测 方法 的 AUC 值 分 别 为 84.25% 、87.34% 和 91.84%, 均 高 于 基于 邻居 
节点 的 算法 和 基于 路 径 的 算法 的 AUC 值 。[ 局 限 ] 在 进行 训练 集 和 测试 集 选 取 的 时 候 只 按时 间 进 行 切 分 有待 
使 用 更 多 的 切 分 方式 对 实验 结果 进行 优化 。[ 结论 ] 本 文 有 助 于 金融 科研 领域 的 个 人 、 机 构 和 区 域 寻求 合作 对 象 ， 
为 进行 科研 网 络 的 研究 以 及 科研 合作 推荐 的 学 者 提供 新 的 研究 方法 和 思路 。 
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科研 合作 推荐 ”科研 合作 网 络 ”多 特征 融合 


科研 合作 网 络 是 一 种 重要 的 社会 网 络 。 在 科研 合 
作 网 络 中 , 通常 将 科研 合作 对 象 (包括 个 人 、 机 构 和 区 
域 等 ) 抽 象 成 为 一 个 节点 , 将 科研 对 象 之 间 的 合作 关系 
抽象 成 为 一 条 边 。 链 接 预 测 (Link Prediction) 是 社会 网 
络 分 析 的 一 个 重要 问题 , 其 任务 是 根据 已 知 的 链接 和 
节点 的 属性 , 来 预测 尚未 连接 的 两 个 节点 之 间 存 在 或 
产生 链接 的 可 能 性 3, 链接 预测 既 包 括 预测 将 来 会 产 
生 的 新 链接 (Future Links), 也 包括 预测 已 经 存在 但 尚 
未 发 现 的 链接 (Exist but Unknown Links)"!, 3k FEE 
预测 技术 进行 科研 合作 推荐 在 国内 外 得 到 越 来 越 多 的 
关注 , 所 采用 的 方法 包括 基于 邻居 节点 的 链接 预测 和 
基于 路 径 的 链 路 预测 等 。 目 前 的 研究 存在 以 下 问题 : 

(D 往往 只 考虑 基于 邻居 节点 或 者 基于 路 径 的 网 
络 特征 ,很 少 有 将 两 者 融合 在 一 起 ， 而 这 两 类 算法 在 
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进行 链接 预测 的 时 候 往 往 各 有 优势 ; 

(2) 国内 的 研究 大 多 局 限于 个 人 层面 , 在 机 构 和 
区 域 层 面 少 有 涉及 。 

鉴于 此 , 本 文 提出 一 种 融合 基于 邻居 节点 和 基于 
路 径 的 网 络 特征 的 科研 合作 推荐 模型 ， 并 从 个 人 、 机 
构 和 区 域 三 个 层面 进行 实证 检验 ,以 期 为 相关 研究 提 
供 借鉴 。 


1 文献 回顾 


在 社会 网 络 分 析 领 域 , 链接 预测 算法 通常 分 为 三 
种 类 型 ， 即 相似 度 算法 、 最 大 似 然 模 型 和 概率 方法 口 。 
相似 度 算法 通过 计算 节点 所 共有 的 特征 来 定义 相似 
度 。 节 点 相似 度 越 高 ,在 推荐 过 程 中 拥有 越 高 的 优先 
权 。 最 大 似 然 模型 通过 最 大 限度 地 提高 网 络 结构 的 可 
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能 性 , 根据 获取 的 规则 和 参数 来 计算 所 有 推荐 链 路 的 
可 能 性 。 概 率 方 法 则 是 用 一 组 参数 组 合 的 概率 模型 估 
计 待 推荐 的 链接 概率 。 由 于 目前 最 大 似 然 模型 和 概率 
方法 在 处 理 大 型 网 络 时 效率 仍然 较 低 9 且 本 文 研 
究 的 科研 合作 网 络 涉及 到 节点 数量 较 多 ,因此 采用 相 
似 度 算法 作为 本 文 研 究 基 础 。 

基于 相似 性 的 链接 预测 算法 可 以 分 为 两 类 ， 即 基 
于 邻居 节点 的 算法 和 基于 路 径 的 算法 。 基 于 邻居 节点 
的 链 路 预测 方法 包括 共同 邻居 (Common | Neighbors, 
CN) 算 法 个 Admic/Adar(AA) 算 法 外 Jaccard Coefficient 
(Jaccard) 算 法 外 和 Preferential Attachment(PA) 算 法 I 
等 。Chen 等 较 早 地 提出 共同 邻居 算法 , 将 共同 邻居 定 
义 为 两 个 节点 间 所 共同 拥有 的 连接 节点 数量 中 。 节 点 
之 间 拥 有 越 多 的 共同 邻居 ,， 则 越 有 可 能 建立 新 的 链 
接 ,AA 算法 和 Jaccard 算 法 对 CN 算法 进行 了 补充 , 对 
于 稀有 特征 (Rare Features) 赋 予 更 大 的 权重 。 其 基本 假 
设 是 , 两 个 拥有 共同 稀有 兴趣 的 人 可 能 更 易 成 为 朋友 ， 
且 其 成 为 朋友 的 可 能 性 往往 正比 于 所 共有 兴趣 的 稀有 
性 。 与 AA 算法 不 同 , PA 算法 则 认为 度数 较 高 ( 即 拥有 
更 多 邻居 ) 的 节点 具有 更 高 的 可 能 性 来 建立 新 的 链接 ， 
并 且 这 种 可 能 性 与 其 度数 的 乘积 成 正比 。 基 于 路 径 的 
算法 则 包括 Shortest Path(SP) 算 法 Katz $515, 
FriendLink 算法 "4、Random Walk with Restart(RWR) 
TUE, 其 中 , SP 算法 计算 节点 对 之 间 的 最 短路 径 ， 
并 认为 具有 较 短 路 径 的 节点 对 之 间 更 容易 建立 链接 。 


与 SP 算法 仅仅 考虑 一 条 路 径 不 同 ,其 他 算法 则 将 多 
个 路 径 综合 加 以 考虑 。 例 如 ,Katz 算法 将 节点 之 间 所 
有 的 路 径 进 行 累计 求 和 ; FriendLink 算法 则 对 不 同 长 
短 的 路 径 赋 予 不 同 的 权重 ， 认 为 那些 具有 独特 路 径 
(Unique Path) 的 节点 之 间 更 容易 建立 链接 。 

Yan 等 较 早 地 将 链接 预测 方法 应 用 到 科研 合作 推 
荐 之 中 , 将 CN 算法 、AA 算法 、Jaccard 算法 、PA 算 
法 和 Katz 算法 等 应 用 到 图 书馆 学 情报 学 领域 的 科研 
合作 推荐 之 中 中 。 张 斌 将 上 述 多 种 方法 应 用 到 包括 文 
学 、 历 史学 、 法 学 和 教育 学 等 在 内 的 多 个 学 科 的 科研 
合作 者 推荐 之 中 站。 刘 萍 等 利用 LDA 主题 模型 进行 
科研 合作 推荐 54。 吕 伟 民 等 尝试 将 链接 预测 与 机 央 学 
习 结 合 ， 以 提高 科研 合作 推荐 的 精确 度 i"。 上 述 方法 
在 多 个 领域 的 科研 合作 推荐 之 中 取得 了 一 定 的 成 果 ， 
但 多 数 研 究 是 将 基于 邻居 节点 的 算法 和 基于 路 径 的 算 


数据 分 析 与 知识 发现 


法 孤立 开 来 进行 科研 合作 推荐 。 
2 研究 方法 


将 4 种 基于 邻居 节点 的 预测 方法 (CN 算法 „Jaccard 
算法 、AA 算法 和 PA 算法 ) 和 4 种 基于 路 径 的 预测 方 
法 (SP 及 改进 最 短路 径 算法 、Katz 算法 、RWR 算法 和 
FriendLink 算法 ) 作 为 基线 方法 , 与 本 文 提出 的 融合 方 
法 进行 比较 。 

2. 基于 改进 最 短路 径 的 预测 方法 

最 短路 径 算法 作为 几 大 经 典 算法 之 一 , 在 计算 机 
科学 、 运 筹 学 等 学 科 中 一 直 是 一 个 研究 热点 。 之 前 的 
学 者 对 该 算法 的 研究 解决 了 优化 网 络 特征 运行 结构 等 
一 系列 网 络 特征 问题 ,推动 最 短路 径 算法 越 来 越 成 
熟 。 但 是 在 对 科研 者 进行 合作 推荐 时 需要 考虑 多 个 科 
研 者 的 路 径 相 似 度 问题 ,传统 的 最 短路 径 算 法 并 不 能 
很 好 地 解决 这 一 问题 , 因此 笔者 考虑 对 最 短路 径 算 法 
进行 改进 , 将 科研 者 最 短路 径 的 相似 性 考虑 进来 , 改 
进 后 的 算法 如 公式 (1) 所 示 。 


1 
Path_ Sim(i, j) = A, B) e shortestpathi ———— —— |-1 
一 (ij) Z ) p "x 


1 

Htp, Path_Sim(i, j) 表示 节点 i 和 节点 j zu Da 
短路 径 相似 度 , (4,8) 表 示 合 作 节 点 对 , 该 节点 对 是 节点 i 
和 节点 j 的 最 短路 径 上 的 节点 , 假设 节点 i 到 jj 的 一 条 
EH Vo 2 V,,Vi Vu V, =V ， 则 合作 者 对 集合 为 
(V) (9 5, V, 4) 01 V) (HV)} o Pa 
表示 市 点 4 的 论文 集合 ，| 己 站 己 | 表示 节点 4 和 节点 
B 合 著 论文 的 数目 。 如 果 两 个 节点 之 间 合作 的 次 数 越 
Z, 则 该 公式 得 出 的 结果 值 越 大 。 
2.0 ”基于 多 特征 融合 的 预测 方法 

本 文 将 多 种 特征 得 出 的 相似 度 结果 进行 融合 , É 
成 一 致 性 的 数据 模型 。 由 于 每 种 特征 的 计算 结果 在 数 
量 级 上 可 能 有 很 大 差别 ,直接 进行 融合 会 导致 数量 级 
较 大 的 特征 占 主 导 地 位 ， 从 而 造成 不 准确 的 结果 ， 
此 在 进行 特征 融合 之 前 ,首先 将 所 有 的 相似 度 结果 进 
行 min-max 归 一 化 ， 如 公式 (2) 所 示 。 


score = Sore— min(score) Q) 
"""  max(score)- min(score) 


本 文采 用 线性 组 合 方法 , 针对 各 种 特征 的 相似 度 


构造 融合 模型 (Proposed Hybrid Method, PHM), "Ill 
式 (3) 所 示 。 


SCOre jsed = & x max trel;(score,,,,) Q) 
max {rel ; (score, )} 


Hn, score pse 是 最 终 的 相似 度 ， 作 为 推荐 合作 
的 依据 ; rel (score,,,,) 表示 基于 路 径 的 算法 的 计算 
结果 ，max {rel,(score,,,)} 表示 基 于 路 径 算 法 中 (SP 
及 改进 算法 Katz" PEE .RWRD3 算 法 和 FriendLink"” 
算法 ) 最 优 的 计算 结果 ; rel; (Score norm) 表示 基于 邻居 
节点 的 算法 中 (CN 算法 、Jaccard 算法 、AA 算法 和 PA 
算法 ) 的 计算 结果 ，max {rel (score, ); RIRE F 
居 节 点 算法 中 最 优 的 计算 结果 ; o 值 为 基于 路 径 算 法 
的 权重 , 其 值 在 0.1 和 0.9 之 间 采 取 步 长 为 0.1 进行 动 


}+(1- 0) x 


3 ”实验 过 程 与 结果 分 析 


3.1 数据 获取 与 预 处 理 

选取 中 国 知 网 期 刊 数据 库 金 融 类 目 CSSCI 选 项 下 
所 包含 的 68 905 篇 论文 (2000 年 -2014 年 ) 作 为 数据 源 ， 
从 个 人 、 机 构 以 及 区 域 三 个 层次 构建 科研 合作 网 络 。 
假设 有 一 篇 论文 发 表 于 2014 年 , 在 该 论文 中 有 三 个 合 
著者 authorl 、author2 、author3,， 则 构建 三 个 科研 作者 
合作 对 ， 即 <authorl,author2,2014> 、<authorl,author3， 
2014> 和 <author2,author3,2014>。 同 理 ， 如 果 作 者 1 和 
作者 2 属于 机 构 institution1， 作 者 3 属于 机 构 
institution2， 则 机 构 1 和 机 构 2 之 间 形 成 一 条 科研 机 构 
合作 对 , 形成 机 构 对 <institutionl,institution2,2014>。 区 
域 层 次 的 科研 合作 网 络 构建 与 此 类 似 。 

将 数据 集 分 成 两 部 分 即 训练 集 和 测试 集 。 其 中 ， 
训练 集 是 2000 年 -2013 年 的 数据 , 测试 集 是 2014 年 
的 数据 。 在 区 域 合 作 层次 , 某 些 国外 地 区 以 及 因为 年 
代 和 信息 不 完全 问题 导致 的 无 法 判断 所 属地 区 的 数 
据 在 实验 中 被 剔除 。 所 使 用 三 个 层面 的 数据 集 如 表 1 
所 示 。 

32 ”基于 邻居 节点 和 路 径 的 预测 方法 

将 科研 对 象 (个 人 人、 机构、 区 域 )A 和 B 抽象 为 节 
点 (下 文 同 )， 两 者 拥有 共同 的 合作 对 象 C, 则 A BE 
可 能 建立 新 的 合作 。A、B 拥有 的 共同 合作 对 象 越 多 ， 
则 其 建立 新 的 合作 关系 的 可 能 性 越 高 。 本 文 所 使 用 的 
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个 人 层面 机 构 层 面 区 域 层面 
作者 数 :4 123 ”机 构 数 : 3 383 mr 
总 集合 合作 链接 数 : 合作 链接 数 : 入 oa 
7 096 12 336 合作 链接 数 : 411 
作者 数 : 4 049 机 构 数 : 3 289 区 域 数 : 46 
训练 集 合作 链接 数 : 合作 链接 数 : AE BIRD. 
6 119 11241 合作 链接 数 : 400 


测试 集 作者 数 : 1 080 机 构 数 : 1 109 成 数 : 36 


[X 
^ 合作 链接 数 : 864 合作 链接 数 : 1553. 合作 链接 数 : 171 


基于 邻居 节点 的 预测 方法 包括 4 种 : CN 算法 (7; Jaccard 
TGA, AA JEUDI PA AAU, 

本 文 所 采用 的 基于 路 径 的 预测 方法 包括 4 种 : SP 
算法 ; Katz 算法 ; RWRL 算法 ; FriendLink “算法 。 
3.3 ”科研 合作 推荐 模型 的 评价 方法 

采用 三 种 评价 指标 验证 算法 的 推荐 性 能 ， 即 平均 
正确 率 均值 (Mean Average Precision, MAP)U* grill; 
下 的 面积 (Area Under Curve, AUC)02。 在 合作 者 推荐 
的 情景 中 ,对 于 潜在 的 科研 合作 对 象 ， 根据 推荐 模型 
的 推荐 结果 与 现实 情况 进行 比较 , 最 终 可 能 会 出 现 4 
种 结果 ， 如 表 2 所 示 。 

表 2 推荐 模型 产生 的 结果 和 抢 阵 


推荐 不 推荐 
有 合作 TP FN 
无 合作 FP TN 


准确 率 的 计算 公式 如 公式 (4) 所 示 。 


" |TP| 
Precision =— (4) 
ITP|- |EP| 
MAP 的 计算 公式 如 公式 (3) 所 示 。 
MAP = 1S Precision, Gk (5) 


n uk 

其 中 , w 是 目标 节点 , rudes 5 Hbri n u 相关 的 
PA, Precision, @k 表 示 当 向 目标 节点 u 推荐 top-k 
个 节点 时 的 准确 率 。 MAP 不 仅 可 以 说 明 推荐 算法 的 准 
确 率 还 能 揭示 推荐 算法 的 排序 能 力 , 因此 使 用 MAP 
可 以 更 好 地 对 推荐 算法 的 整体 性 能 进行 评估 。 

此 外 ,本 文 使 用 曲线 下 面积 (AUC) 作 为 评价 指标 。 
假设 两 个 节点 之 间 当 前 没有 链接 , 但 是 将 来 会 产生 链 
p, 这 类 链接 被 称 为 “缺失 链接 ”; 假设 两 个 节点 现在 
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不 存在 链接 , 将 来 也 不 会 产生 链接 ,这 类 链接 被 称 为 
“错误 链接 *。AUC 实际 上 就 是 比较 缺失 链接 的 得 分 和 
错误 链接 的 得 分 。 在 每 次 实验 中 分 别 选择 一 条 缺失 链 
接 和 一 条 错误 链接 进行 分 数 比 较 , 该 实验 独立 进行 n 
次 , 假设 其 中 有 n 次 缺失 链接 的 得 分 大 于 错误 链接 的 
分 数 ， 有 n" 次 缺失 链接 的 得 分 和 错误 链接 的 得 分 相等 ， 
则 AUC 值 可 以 由 公式 (6) 获 得 。AUC 的 取 值 越 大 , 说 
明 推 荐 效果 越 好 。 


AUC 


34. 个 人 科研 合作 推荐 的 实验 结果 与 讨论 

(1) 基于 网 络 结构 特征 的 个 人 科研 合作 推荐 结 

在 个 人 层次 的 科研 合作 推荐 上 , 本 文 使 用 8 种 基 
于 网 络 结构 特征 的 链接 预测 算法 ， 即 基于 邻居 节点 的 
算法 (AA、CN Jaccard 和 PA) 和 基于 路 径 的 算法 (FL、 
RWR, Katz 和 Path Sim), Æ Katz 算法 中 , 设 定 p 为 
0.001。 鉴 于 本 文 所 构建 的 科研 合作 者 网 络 最 大 直径 为 
18, 为 了 计算 的 可 行 性 , BE Kk SET 10, 即 10 的 情 
况 不 予 考虑 ,在 FriendLink 算法 59 中 ,根据 “六 度 分 割 ” 
理论 设 定 的 ! 值 在 [2,5], 该 论文 最 终 的 实验 结果 表明 / 
取 3 Bp, 算法 能 够 获得 最 好 的 预测 效果 。 鉴 于 此 , 本文 
设置 1 为 3。 

图 1 显示 了 4 种 基于 邻居 节点 的 算法 结果 ， 可 
以 看 出 , AA 算 法 在 MAP 和 AUC 上 都 获得 了 最 高 值 ; 
CN 算法 和 PA 算法 在 AUC 上 的 表现 较为 接近 ,CN 
算法 的 AUC 值 明 显 高 于 Jaccard 算法 ; PA 算法 的 
MAP 值 很 低 , AUC 值 相对 要 高 一 些 。 图 2 显示 了 4 
种 基于 路 径 的 算法 在 各 项 评价 指标 上 的 表现 结 
可 以 看 出 , 在 MAP fii E. RWR 算法 得 分 最 高 ， 其 次 
是 FriendLink 算法 ,Path_Sim 则 得 分 最 低 ; 在 AUC 
上 RWR 和 Path Sim 的 效果 优 于 其 他 两 个 算法 。 


0.8 


_n'+0.5xn" 


(6) 


AA CN Jaccard PA 
E MAP B AUC 


图 1 基于 邻居 节点 的 预测 算法 结果 一 作者 层次 
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图 2 基于 路 径 特征 的 预测 算法 结果 一 一 作者 层次 


(2) 基于 特征 融合 的 个 人 科研 合作 推荐 结果 

综合 各 种 算法 在 三 个 评价 指标 上 的 表现 , 最 终 选 
TÉ AA 作为 基于 邻居 节点 的 算法 代表 , 选择 RWR 作为 
基于 路 径 的 算法 代表 。 

对 融合 参数 oc 进行 调整 的 折线 图 如 图 3 所 示 。 


09 0.88 0.7 0.6 05 04 03 02 0.1 
a 


图 3 融合 参数 a 调整 折线 图 一 作者 层次 

由 图 3 可 以 看 出 ， 当 cx 取 值 为 0.9 时 ， 融 合 模 
型 的 结果 最 好 。 因 此 取 c 为 0.9， 利 用 公式 (3) 将 这 
两 项 特征 融合 ， 利 用 融合 模型 (PHM) 得 到 最 终 的 推 


荐 结果 ， 如 图 4 所 示 。 可 以 看 出 , 无论 是 MAP 还 是 
AUC 值 , PHM 模型 均 获 得 最 佳 性 能 ， 这 验证 了 将 多 
种 特征 融合 在 一 起 进行 科研 合作 推荐 能 够 获得 更 
好 效果 的 设想 。 


1.0 


RWR AA PHM 
MAP NAUC 


图 4 各 种 链接 预测 算法 的 结果 比较 一 一 作者 层次 
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笔者 利用 从 金融 领域 采集 的 2000 年 -2014 年 的 论 
文 , 采用 PHM 模型 推荐 可 能 的 合作 者 。 表 3 显示 了 推 
荐 的 部 分 科研 合作 者 。 通 过 对 科研 作者 的 机 构 进 行 比 
对 分 析 , 发 现 许多 作者 对 处 于 相同 或 地 理 上 邻近 的 机 
构 。 例 如 , 在 第 一 对 推荐 结果 中 , 阁 庆 民 曾 任职 于 中 国 
银行 业 监督 管理 委员 会 (银监会 ), 谢 平 则 受 雇 于 中 国 
投资 公司 (在 地 理 位 置 上 与 银监会 较为 接近 )。 在 第 7 
对 推荐 结果 中 ， 胡 浩 和 樊 志 刚 都 任职 于 中 国 工商 银 
行 。 研 究 结果 也 进一步 验证 了 Evans 等 关于 机 构 和 地 
理 因 素 对 科研 合作 的 影响 的 论证 后。 后 者 的 研究 表明 ， 
受制 于 机 构 和 地 理 位 置 等 限制 因素 , 科学 家 更 倾向 于 
建立 内 部 机 构 的 合作 ; 对 于 作者 机 构 以 外 的 选择 , 更 
愿意 寻求 那些 在 地 理 上 更 为 接近 的 机 构 来 进行 合作 。 
模型 推荐 结果 从 机 器 学 习 的 角度 为 科研 合作 往往 是 建 
立 在 同一 个 或 地 理 上 密切 的 机 构 之 间 的 作者 之 上 这 一 
论点 提供 了 新 的 依据 。 

表 3 PHM 模型 推荐 的 部 分 科研 合作 作者 


编号 LE 作者 2 
1 AKR WD F 
2 陈卫东 姜 波 克 
3 姜 波 克 张 健 华 
4 EKE 陈卫东 
5 HRE 张 健 华 
6 温 信 祥 S SRI 
7 胡 浩 B SRI 
8 王 佳 佳 BE A BT 
9 IKIE 唐 烛 
10 胡 d 马 素 红 


3.5 ”机 构 科研 合作 推荐 的 结果 与 讨论 

在 机 构 层 次 使 用 8 种 基于 网 络 结构 特征 的 链接 预 
测算 法 ， 即 基于 邻居 节点 的 算法 (AA、CN、Jaccard 和 
PA) 和 基于 路 径 的 算法 (FL、RWR、Katz 和 SP) 作 为 基 
线 方 法 。 各 算法 的 参数 设置 与 个 人 层次 的 参数 设置 相 
同 。 图 5 显示 了 基于 邻居 节点 的 链接 预测 算法 对 机 构 
合作 关系 进行 预测 的 结果 ， 可 以 看 出 ,综合 考虑 MAP 
fll AUC fH, CN 算法 在 4 种 算法 之 中 表现 最 好 。 如 图 6 
所 示 , 在 基于 路 径 的 算法 中 RWR 算法 的 MAP 值 最 高 ， 
综合 表现 最 优 ; SP 算法 的 MAP 值 也 比较 高 , 但 是 
AUC 值 低 于 RWR 算法 ; Katz 算法 和 FriendLink 算法 
的 两 项 评价 指标 均 较 弱 。 


ChinaXiv 合 作 期 刊 


总 第 8 期 2017 年 第 8 期 


AA CN Jaccard PA 
MAP NBAUC 
图 5 基于 邻居 节点 的 链接 预测 算法 结果 比较 
一 一 机 构 层 次 


FL RWR Katz SP 
MAP AUC 
图 6 基于 路 径 特征 的 预测 算法 结果 比较 
一 一 机 构 层 次 


根据 上 述 各 种 算法 的 MAP 指标 比较 , 笔者 选择 
RWR 和 CN 两 种 算法 进行 融合 ,进行 合作 机 构 推荐 。 
对 区 域 层次 a 参数 的 调整 如 图 7 所 示 , E a 为 0.7。 
图 8 显示 了 融合 算法 与 其 他 算法 进行 比较 的 结果 。 可 
以 看 出 , 在 机 构 层面 , 融合 算法 能 够 获得 更 好 的 推荐 
结果 。 
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图 7 融合 参数 a 调整 折线 图 


利用 从 金融 领域 采集 的 2000 年 -2014 年 的 论文 ， 
采用 PHM 模型 推荐 可 能 的 合作 机 构 ， 部 分 预测 的 科 
研 合作 机 构 如 表 4 所 示 。 
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图 8 链接 预测 算法 比较 一 一 机 构 层 次 
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从 表 4 可 以 看 出 , PHM 模型 的 推荐 结果 在 一 定 
程度 上 反映 了 科研 机 构 在 地 理 位 置 上 的 近邻 性 。 例 
如 , 第 3、5、6 和 8 组 的 科研 合作 机 构 是 隶属 于 同 
一 所 大 学 的 不 同学 院 ; 第 7 和 9 组 则 位 于 同一 省 份 
或 者 城市 。 ECCE 推荐 结果 还 反映 了 研究 
机 构 之 间 的 主题 相似 性 。 通 过 对 研究 机 构 的 主题 进 
行 分 析 发 现 , 第 1、4 和 10 组 机 构 具 有 很 高 的 主题 
相似 性 。 


表 4 PHM 模型 推荐 的 部 分 科研 合作 机 构 


编号 机 构 1 机 构 2 

1 中 国 金融 学 会 金融 史 专 业 委 员 会 上 海 市 金融 学 会 

2 烟台 大 学 经 管 学 院 东北 财经 大 学 公共 管理 学 院 

3 云南 财经 大 学 商学 院 云南 财经 大 学 会 计 学 院 

4 云南 大 学 国际 关系 研究 院 南开 大 学 日 本 研究 院 

5 复旦 大 学 管理 学 院 产 业经 济 系 复旦 大 学 管理 学 院 财务 金融 系 

6 东北 财经 大 学 应 用 金融 学 院 东北 财经 大 学 职业 技术 学 院 

7 西南 大 学 地 理科 学 学 院 重庆 大 学 建设 管理 与 房地产 学 院 

8 华东 师范 大 学 俄罗斯 研究 中 心 华东 师范 大 学 国际 关系 与 地 区 发 展 研究 院 
9 浙江 大 学 理学 院 浙江 水 利水 电 专 科学 校 


fk 
© 


中 国 科 学 技术 大 


学 公共 事务 学 院 


西南 科技 大 学 政治 学 院 


3.6 ”区 域 科研 合作 推荐 的 结果 与 讨论 

在 区 域 层次 , 采用 与 机 构 合 作 层次 相同 的 % 种 链 
接 预 测算 法 。 在 Katz 算法 中 , 设 定 8 0.001, 统计 发 
现 区 域 合作 网 络 的 直径 为 3, 平均 路 径 长 度 为 1.5, 为 
了 计算 的 可 行 性 , 设 定 上 等 于 3; 在 FriendLink 算 法 中 ， 
设 定 1 等 于 2。 

在 区 域 层次 上 也 使 用 相同 的 8 种 基于 网 络 结构 特 
征 的 链接 预测 算法 ， 即 基于 邻居 节点 的 算法 (AA、CN、 
Jaccard 和 PA) 和 基于 路 径 的 算法 (FL、RWR、Katz 和 
SP) 作 为 基线 方法 。 

图 9 显示 了 基于 邻居 节点 的 链接 预测 算法 对 于 机 
构 合 作 关系 预测 的 结果 ,可 以 看 出 ,综合 考虑 MAP 和 
AUC 值 , CN 算法 在 4 种 算法 之 中 表现 最 好 , Jaccard 算 
法 和 PA 算法 MAP (EA AUC 值 相当 ,AA 算法 表现 相 
对 不 好 。 如 图 10 所 示 , 在 基于 路 径 的 算法 中 RWR 算 
法 的 MAP 值 最 高 , 在 两 个 评估 指标 上 综合 表现 最 优 ; 
SP 算法 的 MAP 值 也 比较 高 , 但 是 AUC 值 低 于 RWR 
算法 ; Katz 算法 和 FriendLink 算法 的 两 项 评价 指标 相 
对 较 弱 。 
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图 9 基于 邻居 节点 的 链接 预测 算法 结果 比较 
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根据 上 述 各 种 算法 的 MAP 值 比较 , 选择 RWR 和 
CN 两 种 算法 进行 融合 ,进行 合作 区 域 推荐 。 融合 参数 
a 的 调整 如 图 11 所 示 , 最 终 选 定 o 为 0.5。 图 12 显示 
了 融合 算法 与 其 他 算法 进行 比较 的 结果 。 可 以 看 出 ， 
在 区 域 层 面 ,融合 算法 能 够 获得 更 好 的 推荐 结果 。 


| 
01 02 03 04 05 06 07 0.8 09 
a 


图 11 融合 参数 w 调整 折线 图 
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图 12 链接 预测 算法 比较 一 一 区 域 层 次 
通过 使 用 提出 的 融合 方法 ,笔者 尝试 利用 2000 年 
-2014 年 的 区 域 合作 数据 来 预测 的 潜在 的 区 域 合作 对 ， 
其 结果 如 表 5 所 示 。 
45 PHM 模型 推荐 的 部 分 科研 合作 区 域 


编号 区 域 1 区 域 2 
1 陕西 海南 
2 河北 重庆 
3 重庆 陕 

4 黑龙 江 重庆 
5 天 津 广西 
6 吉 重庆 
7 gji] 辽宁 
8 江苏 广西 
9 贵州 天 津 
10 海南 江苏 


从 表 5 可 以 看 出 , 在 区 域 层面 , 模型 的 推荐 结 
对 物理 位 置 的 近邻 性 的 反映 程度 弱 于 作者 和 机 构 层 
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iij, 通过 对 这 些 地 区 的 GDP 进行 深入 分 析 发 现 , 模型 
的 推荐 结果 更 多 地 反映 了 区 域 之 间 经 济 状况 的 差异 
性 。 例 如 , 在 第 1 对 推荐 结果 中 , 陕西 的 GDP 为 1 兆 
7689 亿 9400 万 元 人 民 币 (2014 年 )， 而 海南 则 仅 为 
3 500 亿 7 200 万 元 人 民 币 (2014 年 )。 在 第 2 对 推荐 结 
Rp, 河北 的 GDP 为 2 兆 9421 亿 4000 HART, 
而 重庆 则 仅 为 1 兆 4265 亿 4000 万 元 人 民 币 。 在 区 
域 层 面 ， 模 型 更 倾向 于 推荐 经 济 发 展 互补 的 区 域 进 
行 合作 。 
3.7 个 人 、 机 构 与 区 域 科研 合作 推荐 的 综合 分 析 
对 比 4 种 基于 邻居 节点 的 算法 (AA、CN Jaccard 
和 PA) 和 5 种 基于 路 径 的 算法 (EL、RWR Katz, SP 
和 Path_Sim) 在 个 人 、 机 构 以 及 区 域 层次 的 科研 合作 推 
荐 结果 ,发 现 不 同 算法 在 各 层次 的 科研 合作 网 络 中 的 
推荐 效果 呈现 多 样 性 。 例 如 , 在 基于 路 径 的 预测 方法 
中 , RWR 算法 在 个 人 、 机 构 和 区 域 三 个 层次 上 的 链接 
预测 中 均 展 现 出 最 好 的 结果 ; 在 基于 邻居 节点 的 链接 
预测 算法 中 ,AA 算 法 在 区 域 层 次 表现 最 好 , CN 算法 在 
区 域 和 机 构 层 次 表现 得 最 好 。 对 比 基 于 网 络 结构 的 方 
(AA, CN, Jaccard, PA, FL, RWR, Katz, SP 和 
Path_Sim)、 融 合 方 法 (PHM), 发 现 无 论 是 MAP 还 是 
AUC 值 , 融合 模型 均 获 得 最 佳 性 能 ,这 表明 将 多 种 特 
征 融 合 在 一 起 能 够 有 效 提升 推荐 效果 。 
本 文 以 金融 领域 的 科研 合作 网 络 作为 实证 研究 对 
B, 将 科研 合作 对 象 ( 包 括 个 人 、 机 构 和 区 域 等 ) 抽 象 成 
为 一 个 节点 , 将 科研 对 象 之 间 的 合作 关系 抽象 成 为 一 
条 边 。 由 于 网 络 拓扑 结构 在 不 同学 科 门 类 下 的 分 布 呈 
现 较 高 的 一 致 性 请 ， 与 学 科 门 类 并 无 实质 关联 ,所 以 
本 文 提 出 的 模型 和 方法 理论 上 可 以 应 用 到 其 他 学 科 。 
值得 说 明 的 是 , 个 人 、 机 构 和 区 域 三 个 层次 的 科研 合 
作 推 荐 研究 并 非 各 自白 立 ， 而 是 彼此 关联 。 研 究 个 人 
层面 的 科研 合作 推荐 有 助 于 发 现 科研 人 员 合 作 的 现 
AR, 揭示 影响 合作 的 微观 因素 , 例如 研究 主题 的 差异 
性 、 研 究 机 构 的 同一 性 等 ; 研究 机 构 层 次 的 科研 合作 
推荐 有 助 于 发 现 科研 团队 合作 的 现状 , 揭示 影响 合作 
的 中 观 因 素 , 例如 地 理 位 置 的 远近 等 ; 研究 区 域 层次 
的 科研 合作 推荐 则 可 以 更 多 地 发 现 影 响 合 作 产 生 的 宏 
观 因 素 , 例如 区 域 经 济 发 展 的 差异 性 等 。 从 推荐 结 
来 看 , 在 个 人 层面 ,算法 倾向 于 推荐 具有 相同 机 构 的 
作者 进行 合作 ; 在 机 构 层 面 , 倾向 于 推荐 地 理 位 置 较 
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为 靠近 的 机 构 进行 合作 ; 在 区 域 层 面 , 则 倾向 于 推荐 
经 济 发 展 互补 的 区 域 进 行 合 作 。 尽 管 算法 推荐 的 结果 
并 不 能 作为 实际 工作 的 指导 , 但 上 述 工作 对 于 科研 人 
员 、 机 构 与 区 域 选择 恰当 的 合作 对 象 、 促 进 学 术 交 流 
与 提高 科研 产 出 仍然 提供 了 新 的 思路 ,具有 一 定 的 启 
发 与 借鉴 意义 。 


4 结 语 


本 文通 过 利用 影响 科研 合作 关系 产生 的 因素 一 一 
网 络 结构 特征 (包括 邻居 节点 和 路 径 ), 构建 了 多 种 特 
征 融合 的 科研 合作 推荐 方法 ,并 对 金融 领域 的 个 人 、 
机 构 与 区 域 层 次 的 科研 合作 推荐 进行 了 实证 研究 。 在 
网 络 结构 特征 方面 , 检验 了 4 种 基于 邻居 节点 的 算法 
(AA, CN, Jaccard 和 PA) 和 5 种 基于 路 径 的 算法 (FL、 
RWR, Katz, SP 和 Path_Sim) 对 于 个 人 、 机 构 和 区 域 
层次 的 科研 合作 推荐 的 效果 , 发 现 不 同 算法 适用 于 不 
同 的 网 络 , 在 各 网 络 中 的 推荐 效果 呈现 多 样 性 。 本 文 
提出 的 将 邻居 节点 特征 、 路 径 特 征 进行 融合 的 推荐 模 
型 在 MAP 5j AUC 指标 上 都 取得 了 比 只 考虑 其 中 一 项 
特征 更 好 的 效果 ,这 表明 融合 多 种 特征 的 推荐 算法 优 
于 仅仅 考虑 单一 特征 的 推荐 算法 。 对 于 机 构 和 区 域 层 
次 的 科研 合作 推荐 则 发 现 对 于 机 构 合作 来 说 ， 影 响 合 
作 产 生 的 主要 因素 是 地 理 位 置 ， 而 影响 区 域 合 作 的 主 
要 因素 是 经 济 发 展 水 平 ,其 研究 发 现 有 助 于 科研 人 员 、 
机 构 与 区 域 选择 恰当 的 合作 对 象 , 促进 学 术 交 流 与 合 
作 。 后 续 还 将 考虑 更 多 的 特征 来 丰富 各 层次 实体 的 科 
研 合 作 推 荐 理论 与 方法 。 
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Collaboration Recommendation of Finance Research Based on 
Multi-feature Fusion 
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Abstract: [Objective] Research collaboration builds an important social network system. This paper proposes a new 
recommendation model for research collaboration in finance, aiming to promote the scientific collaboration and 
improve research productivity. [Methods] First, we established the scientific collaboration networks at individuals, 
institutions and regions levels. Then, we established a recommendation model based on network neighbors and paths. 
Finally, we conducted empirical study to examine the model at three levels. [Results] A total of 68 905 articles 
published from 2000 to 2014 on finance were analyzed to construct their research collaboration networks. The AUC 
values of the proposed model at individual, institutional and regional levels were 84.2596, 87.34%, and 91.8496, 
respectively, which were higher than those of the traditional algorithms. [Limitations] The training and testing sets 
were only classified by time. More segmentation methods were needed to optimize the new model. [Conclusions] This 
study helps researchers find collaboration opportunities, and provides new directions for studies on scientific 
collaboration networks. 

Keywords: Link Prediction Scientific Collaboration Recommendation | Scientific Collaboration Network 
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